Analyse discriminante sur données binaires lorsque les populations d'apprentissage et de test sont différentes
نویسندگان
چکیده
Résumé. L’analyse discriminante généralisée suppose que l’échantillon d’apprentissage et l’échantillon test, qui contient les individus à classer, sont issus d’une même population. Lorsque ces échantillons proviennent de populations pour lesquelles les paramètres des variables descriptives sont différents, l’analyse discriminante généralisée consiste à adapter la règle de classification issue de la population d’apprentissage à la population test, en estimant un lien entre ces deux populations. Ce papier étend les travaux existant dans un cadre gaussien au cas des variables binaires. Afin de relever le principal défi de ce travail, qui consiste à déterminer un lien entre deux populations binaires, nous supposons que les variables binaires sont issues de la discrétisation de variables gaussiennes latentes. Une méthode d’estimation et des tests sur simulations sont présentés, puis des applications dans des contextes biologique et d’assurance illustrent ce travail.
منابع مشابه
Modèles de mélanges topologiques pour la classification de données catégorielles et mixtes
Résumé. Cet article présente une méthode basée sur les cartes auto-organisatrices probabilistes dédiées à la classification non supervisée et la visualisation de données catégorielles et des données mixtes contenant des composantes quantitatives et binaires. Pour chacun de ces types de données, nous proposons un formalisme probabiliste dans lequel les unités de la carte topologique sont représe...
متن کاملAnalyse statistique de comportements d'apprenants utilisant des Environnements Numériques d'Apprentissage - Analyse de cas en Comptabilité-Gestion-Finance
Introduction.On constate une explosion sur le marché de solution dite d'e-Learning à des fina-lités de formation dans des contextes scolaires ou professionnels Depover et Marchan (2002). Avec les technologies actuelles, il est important de prendre en compte la différenciation in-dividuelle, qu'elle soit cognitive, affective, socioculturelle ou qu'elle ai lieu dans l'utilisation des stratégies d...
متن کاملCarte auto-organisatrice probabiliste sur données binaires
Résumé. Les méthodes factorielles d’analyse exploratoire statistique définissent des directions orthogonales informatives à partir d’un ensemble de données. Elles conduisent par exemple à expliquer les proximités entre individus à l’aide d’un groupe de variables caractéristiques. Dans le contexte du datamining lorsque les tableaux de données sont de grande taille, une méthode de cartographie sy...
متن کاملDe nouvelles pondérations adaptées à la classification de petits volumes de données textuelles
Résumé. Un des défis actuels dans le domaine de la classification supervisée de documents est de pouvoir produire un modèle fiable à partir d’un faible volume de données. Avec un volume conséquent de données, les classifieurs fournissent des résultats satisfaisants mais les performances sont dégradées lorsque celui-ci diminue. Nous proposons, dans cet article, de nouvelles méthodes de pondérati...
متن کاملMéthodes à noyaux appliquées aux textes structurés
Résumé. Cet article ébauche un état de l’art sur l’utilisation des noyaux pour le traitement des données structurées. Les applications modernes de la fouille de données sont de plus en plus confrontés à des données structurées, notamment textuelles. Les algorithmes d’apprentissage doivent donc être capables de tirer parti des informations apportées par la structure, ce qui pose d’intéressants p...
متن کامل